Telegram Group & Telegram Channel
Статзначимость в А/В тестах или немного о том, зачем нужна статистика (часть 1/3)

Сейчас я заканчиваю готовить математическую часть нашего курса «База ML» (в частности, модуль по теорверу) и очень плотно работаю с вопросом «а зачем оно надо?». Топ-1 ответом на вопрос, зачем нужны теорвер и статистика в ML (да и не только в нем) по-прежнему остается проверка статистической значимости. В современном мире мы чаще встречаемся с ней в контексте A/B тестов, когда части клиентов показывают одно, части другое, и из этого эксперимента пытаются сделать выводы. В этих постах вас ждет рассказ в трех частях: 1) введение, 2) непосредственно по теме и 3) некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные жирным в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2024 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).

#математика
👍218❤‍🔥2🙏1



tg-me.com/kantor_ai/295
Create:
Last Update:

Статзначимость в А/В тестах или немного о том, зачем нужна статистика (часть 1/3)

Сейчас я заканчиваю готовить математическую часть нашего курса «База ML» (в частности, модуль по теорверу) и очень плотно работаю с вопросом «а зачем оно надо?». Топ-1 ответом на вопрос, зачем нужны теорвер и статистика в ML (да и не только в нем) по-прежнему остается проверка статистической значимости. В современном мире мы чаще встречаемся с ней в контексте A/B тестов, когда части клиентов показывают одно, части другое, и из этого эксперимента пытаются сделать выводы. В этих постах вас ждет рассказ в трех частях: 1) введение, 2) непосредственно по теме и 3) некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные жирным в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2024 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).

#математика

BY Kantor.AI


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/kantor_ai/295

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

What is Telegram?

Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.

Kantor AI from sg


Telegram Kantor.AI
FROM USA